Jacobs Sofia & Bauer Julie
Master
STPE/MV – UCA
Année académique 2025-2026
Dans le monde, plus de 800 millions de personnes vivent à proximité d’un volcan dont 200 millions à moins de 30 km d’un volcan actif (CNRS, 2025). La caractérisation de l’aléa volcanique est donc essentielle pour la sureté des habitants en territoires volcaniques. Cela repose notamment sur la compréhension des lien divers entre un volcan et les types de dépôts, l’intensité éruptive ou encore la nature du magma qu’il génère.
Cette étude se concentre sur la région méditerranéenne et plus précisément sur 6 édifices actifs : quatre édifices italiens et deux édifices grecs. La période étudié s’étend de 2015 à 2025.
Les volcans italiens sont l’Etna (Sicile, Italie), le Vésuve (Naples, sud de l’Italie), Lipari et Vulcano (Iles Eoliennes, Sicile, Italie).
Les volcans grecques sont le Santorin et le Nisyros (Iles Dodecanese, Grèce).
Les données disponibles sont comme les magnitudes, les types de magma, les profondeur du magma, le VEI, la classification des éruptions, ainsi que le les volumes estimés des produits pour chaque édifices.
L’objectif principal est de déterminer si il existe un lien statistique entre la magnitude et l’édifice volcanique afin d’identifier quelle population s’expose plus à un risque important. Il sera aussi particulièrement intéressant de regarder le lien possible entre le volcan et le type de magma, paramètre influant sur la dynamique des éruptions et donc de l’aléa.
Enfin, l’étude évalue également l’intéraction possible entre l’édifice et la profondeur du magma, ainsi que la variation de cette profondeur en fonction du type de magma. Ces éléments peuvent contribuer à une meilleur compréhension des processus pré-éruptifs et permettre d’améliorer la surveillance des édifices volcaniques.
Les données ont été chargée et modifier pour avoir les bons types de variables. Le jeu de donnée est composé de 47 observation et de 14 variables. La variable Volume a été calculée à partir des données de magnitudes. Cette nouvelle variable a permis d’également déterminé le VEI ainsi que la classification éruptives des volcans.
De plus, le summary a déjà permis d’obtenir pour les variables numériques : le maximum, le minimum, la moyenne et la médiane. Une synthèse est proposée dans le tableau ci-dessous :
| Variable | Type | Résumé / Statistiques principales |
|---|---|---|
| Volcanoes | Catégorielle | Santorin (13), Nisyros (11), Lipari (9), Vulcano (6), Etna (7), Vesuvio (1) |
| Magnitude | Numérique | Min: 1.2 – Max: 5.3 – Moy: 2.76 – Médiane: 2.3 |
| Depth (km) | Numérique | Min: 0.0 – Max: 225.4 – Moy: 27.57 – Médiane: 10.0 |
| Volume (m³) | Numérique | Min: 6.3×10⁴ – Max: 7.98×10⁸ – Moy: 5.01×10⁷ – Médiane: 7.98×10⁵ |
| Latitude | Numérique | - |
| Longitude | Numérique | - |
| VEI | Catégorielle | VEI 1: 24, VEI 2: 9, VEI 3: 13, VEI 4: 1 |
| Classification | Catégorielle | Hawaïen/Strombolien (24), Strombolien/Vulcanien (9), Vulcanien (13), Vulcanien/Plinien (1) |
| Mag.Type | Catégorielle | MB (19), MA (14), ML (9), MB-MA (3), MBa (1), MR (1) |
| Region | Catégorielle | Dodecanese Islands (24), Sicily (22), Southern (1) |
| Country | Catégorielle | Greece (24), Italy (23) |
La variable Mag.Type correspond au type de magma produit par le volcan lors de l’éruption. Les différentes catégories de magma sont définies comme suit :
| Code | Description |
|---|---|
| MB | Magma basaltique |
| ML | Magma latitique |
| MA | Magma andésitique |
| MR | Magma rhyolitique |
| MB-MA | Magma basaltique à andésitique |
| MBa | Magma basaltique alcalin |
Enfin, il est important de préciser que pour le Vesuve il n’y a qu’une seule observation prise en compte dans cette étude. L’absence de plusieurs informations ne permettra pas de comparer les données pour ce volcan par rapport au autres.
Cette section permet de visualiser les distances entre les différents volcans étudiés en km.
L’objectif de cette section eest de calculer les principales statistiques descriptives (variance, moyenne, médiane, minimum et maximum) pour les variables numériques Depth, Magnitude et Volume à la fois pour l’ensemble des volcans (global) et pour chaque volcan individuellement.
Avant toute analyse, il est important de précisé que le nombre de données par volcans n’est surement pas suffisante pour réaliser des statistiques les plus optimales possible.
| Groupe | Variable | Variance | Moyenne | Médiane | Min | Max |
|---|---|---|---|---|---|---|
| Global | Depth | 2683.43422 | 27.56902 | 10.00 | 0.00 | 225.420 |
| Global | Magnitude | 1.56159 | 2.75957 | 2.30 | 1.20 | 5.300 |
| Global | Volume | 1.5973504×10¹⁶ | 5.012363×10⁷ | 798104.93 | 63395.73 | 798104926.0 |
| Santorin | Depth | 23.21269 | 7.44615 | 10.00 | 0.00 | 17.600 |
| Santorin | Magnitude | 2.25859 | 2.87692 | 1.90 | 1.20 | 4.700 |
| Santorin | Volume | 4.908889×10¹⁵ | 5.338526×10⁷ | 317731.29 | 63395.73 | 2.00474893×10⁸ |
| Etna | Depth | 130.90810 | 19.41429 | 25.20 | 5.00 | 30.000 |
| Etna | Magnitude | 1.07333 | 2.00000 | 1.50 | 1.40 | 4.300 |
| Etna | Volume | 9.056722×10¹⁴ | 1.156326×10⁷ | 126491.11 | 100475.46 | 7.9810492×10⁷ |
| Vesuvio | Depth | NA | - | - | - | - |
| Vesuvio | Magnitude | NA | - | - | - | - |
| Vesuvio | Volume | NA | - | - | - | - |
| Vulcano | Depth | 10.43741 | 9.28700 | 9.15 | 5.20 | 14.722 |
| Vulcano | Magnitude | 1.36967 | 2.21667 | 2.00 | 1.20 | 4.400 |
| Vulcano | Volume | 1.6690856×10¹⁵ | 1.708496×10⁷ | 443170.11 | 63395.73 | 1.00475457×10⁸ |
| Lipari | Depth | 8245.75305 | 54.22689 | 8.80 | 5.00 | 225.420 |
| Lipari | Magnitude | 0.84000 | 2.90000 | 2.70 | 1.80 | 4.400 |
| Lipari | Volume | 1.902945×10¹⁵ | 2.354918×10⁷ | 23549175.68 | 252382.94 | 100475457.300 |
| Nisyros | Depth | 3726.96190 | 47.16182 | 13.10 | 5.47 | 152.810 |
| Nisyros | Magnitude | 1.45855 | 3.33636 | 2.80 | 1.90 | 5.300 |
| Nisyros | Volume | 5.7457176×10¹⁶ | 1.150703×10⁸ | 2523829.38 | 317731.29 | 798104926.000 |
En moyenne, Lipari présentent les profondeurs les plus importantes. A l’inverse, Santorin est le volcan dont les magmas sont les plus superficiels.
Cependant, la variance des profondeurs pour Lipari est très importante, cela s’explique par la présence d’outliers (7 points de données) qui augmentent considérablement la dispersion des mesures. Ce phènomène peut être du soit à des erreurs de messures, soit des porcessus magmatiques plus complexes.
Nisyros est le volcan ayant émis les volumes les plus importants durant la période 2015-2025. A l’opposé,Vulcano est celui qui présente le volume le plus faibles.
Comme pour les profondeurs, ces valeurs doivent être interprétées avec prudence au vue de la variance importante des données.
La magnitude des éruptions est en moyenne plus importante pour Nisyros. Cela est cohérent avec les valeurs moyennes pour le volume. La magnitude est directement reliée au volume emis, plus le volume est important plus la magnitude le sera.
Cependant, ce n’est pas Vulcano qui possède la plus faible moyenne des magnitudes mais l’Etna. Cela peut s’expliquer par le faite que l’Etna à émis plus de petites éruptions sur 2015-2025 que Vulcano.
En conclusion, l’analyse des paramètres de dispersion montre que les volcans grecs produisent des éurptions avec des magnitudes plus variées (1.2 à 5.3) par rapport auxles volcans Italiens. Ceux-ci ont une variabilité plus modérées, à l’exception de Lipari qui produit des volumes et des magntides élevées.
Les différentes variables numériques ne sont cependant pas dans les mêmes unités, il est donc important de regarder les coefficients de variation (CV) pour comparer la dispersion relative des données. Dans cette étude, malgré les quelques valeurs extrêmes, la dispetion des paramètres reste comparable entre les volcans.
| Variable | Écart-type (sd) | Coefficient de variation (CV) |
|---|---|---|
| Depth | 5.18×10¹ | 1.88 |
| Magnitude | 1.25 | 0.45 |
| Volume | 1.26×10⁸ | 2.52 |
L’analyse de la profondeur des magmas montre une distribution hétérogène. C’est pour cela que sur le boxplot, il s’agit d’une échelle logarithmique afin de réduire cette plage de valeurs.
Au niveau du boxplot, il est possible d’observer :
Au niveau de l’histogramme, c’est la distribution brute qui est observée :
La distribution des maagnitudes éruptives ne montrent pas de valeurs abérentes. Au niveau de boxplot :
Au niveau de l’histogramme :
Il y ainsi une séparation entre deux groupes. L’un avec des magnitudes faibles et l’autre avec des magnitudes fortes.
Les fortes magnitudes ont une distribution sysmétrique
qui s’articule autour d’une valeur centrale de 4,3.
Cela se rapproche plus d’une loi normale tandis que les faibles
magnitudes ont une distribution plus étalée et moins
structurée.
Pour les volumes estimés, on montrent également une répartition bimodale très similaire à celle des magnitudes avec une valeur intermédiaire entre les volumes faibles et forts de 16,25 km3.
Les volumes estimés sont utilisés pour déterminer la magnitude de l’érution, il est donc logique qu’il suivent excatement la même distibution pour l’histogramme et le boxplot.
La majorité des magmas sont basaltique (MB) avec quelques occurences andésitique (MA) et latitique (ML=un magma latitique est un magma basaltique avec une texture particulière, il n’y a pas de différence de chimie importante).
La série magmatique est globalement basique et faiblement différenciée, comme en témoigne l’absence quasiment totale de magmas rhyolitiques. La faible présence de basalte alcalin (MBa) indique que les magmas générés appartiennent principalement à la série subalcaline. Enfin, il y a un faible nombre de magmas intermédiaires (MB-MA) suggère l’existence de mélanges magmatiques entre ces deux compositions.
Le VEI est une échelle de 1 à 8 donnant l’intensité d’une éruption volcanique, de 1 pour les éruptions très peu intenses à 8 pour les évènements extrême. Dans la région étudiée, la majorité des éruptions sont de faible intensité avec des valeurs de VEI 1 à 2 (environ 30 occurances), avec VEI 1 qui est majoritaire.
Des éruption faiblement à moyennement intense (3 à 4) sont également enregistrées, mais elles restent minoritaire. Il n’y a aucune éruption avec un VEI supérieure à 4, ce qui est rassurant puisque les grosses éruptions ont une occurences de plusieurs centaines d’année et sont donc difficilement visible sur une période de 10 ans.
Cette analyse univarié a permis de déterminer l’allure de chacune des variables du jeu données. Il est a présent possible d’étudier des relations entres ces différentes variables.
Tout d’abord, 5 outliers sont visibles confirmant les observations faites dans l’univariée avec des points de profondeur beaucoup trop importante.
Le graphique permet d’observer qu’il n’y a aucune corélation visible entre la profondeur et la magnétude. Un test de corrélation peut tout de même être réaliser. Cependant, ce ne sera pas la méthode de Pearson mais la méthode de Spearman car les données ne sont pas distribuées de manière normale. Il s’agit d’un test qui est dit non paramétrique. Ce ne sont pas les données en tant que telle qui sont utilisées mais leurs rangs.
Le coefficient de corrélation est de 0.3235965 . C’est une corrélation positive mais la valuer reste faible car comprise entre 0.1 et 0.3 à plus ou moins 0.02, on a donc une faible corrélation entre la profondeur et la magnitude.
Pour aller plus loin, il est possible de retirer les outliers et de refaire l’analyse.
## [1] 0.1864415
Le coefficient de corrélation est de 0.1864415 . La corrélation est possitive mais elle encore plus faible qu’avec les outliers. Ce phénomène est normal car étant donné que Spearman est basé sur les rangs, les valeurs extrêmes présentent vont faire augmenter le coefficient de corrélation.
Le graphique permet d’observer une relation linéaire positive entre volume et la magnitude. En effet, plus la magnitude est importante plus le volume. Afin de vérifier cela, un modèle de regression linéaire est réalisé.
Il faut tout d’abord vérifier les hypothèses du modèle linéaire :
Il n’est donc ainsi pas possible de réaliser le modèle de régression
linéraire car aucune des conditions n’est respectée.
Il est de même possible de mesurer la corrélation entre les deux
variables.
Le coefficient de corrélation est de 1. Il est normal que la corrélation soit de 1 car la méthode de Spearman est robuste aux écarts de valeur.
Cette relation ne peut tout de même pas être interprété e car le volume est estimé à partir de la magnitude donc il est normal qu’il y est une relation entre les deux.
Il est également possible d’étudier la relation entre le volume estimé et la profondeur. Cependant, étant donné que le volume a été estimé à partir de la magnitude, les deux graphiques montrent exactement les mêmes tendances.
Cette similitude se remarque également au niveau de la valeur du coefficient de corrélation de Spearman qui vaut 0.324.
L’objectif est d’observer si il y a une différence de magnitude entre les différents volcans.
Au niveau des boxplots :
Les médianes des volcans sont différentes les unes des autres.
La médiane et la moyenne ne coincident pas, ce qui témoignent d’une asymétries des distributions.
Au niveau du Dotplot :
Il est possible d’observer que les données ne sont pas uniformes pour chaque volcan.
Certains volcans, comme Santorin ont des clusters autour de 2 et 4, tandis que d’autres, comme Etna, ont une répartition plus uniforme des magnitudes.
Au niveau des courbes de densité :
Si on veut observer une différence entre les volcans par rapport à la magnitude, le t.test ne fonctionne pas car celui-ci est pour des échantillons avec deux catégories dans cette étude, il y a six volcans différents. C’est donc une ANOVA qui va être réalisée.
L’ANOVA (Analysis of Variance) permet de comparer les moyennes de plusieurs groupes pour déterminer s’il existe des différences significatives entre elles. Cependant, pour que les résultats de l’ANOVA soient valides, certaines conditions doivent être remplies : 1. Indépendance des observations : Les données de chaque groupe doivent être indépendantes les unes des autres. 2. Normalité : La distribution des résidus doit suivre une distribution normale. Ici, cette condition n’a pas été respectée. 3. Homogénéité des variances : Les variances des différents groupes doivent être similaires (homoscédasticité). La ligne rouge n’est pas à l’horizontale donc cette condition n’est pas respectée.
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 21
Graphiquement, la ligne pour l’hétéroscédasticité n’est pas horizontale. Cependant, le test de Levene donne une p-value de 0.187. Même si l’hétéroscédasticité est respectée, la normalité des résidus ne l’est pas donc il n’est pas possible de réaliser une ANOVA.
Il est tout de même possible de tester à partir d’un test non-paramétrique, le test de Kruskal-Wallis. Celui-ci ne nécessite pas que les données suivent une distribution normale, que les variances soient homogènes.
Les hypothèses pour le test Kruskal-Wallis : H0 : Les distributions des groupes sont identiques (pas de différence significative entre les groupes). H1 : Au moins une des distributions des groupes est différente (il y a une différence significative entre les groupes).
Le summary du test de Kruskal-Wallis donne une **p-value de 0.0949185. Cette p-valeur est supérieur à 0.05, il n’y a donc pas de différence significative entre les magnitudes entre les différents volcans.
L’objectif est d’observer si il y a une différence de magnitude entre les différents types de magmas.
Au niveau des boxplots :
Au niveau des courbes de densité :
L’ANOVA doit ainsi respecter différents critères. Dans ce cas-ci :
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 43, 44
e test de Levene donne une p-value de 0.6581. Ce qui est en accord avec l’observation graphique.
L’ANOVA est ainsi réalisée, et celle-ci donne une valeur significative de . Il y a ainsi une différences entre les différents types de magmas au niveau de la magnitude.
L’objectif est d’observer si il y a une différence de profondeur entre les différents volcans.
Au niveau des boxplots : - Les médianes des classifications des types d’éruption sont relativement proches les unes des autres. - La moyenne et la médiane ne coïncident pas, ce qui témoigne d’une asymétrie des distributions. - Certaines classifications ont une dispersion des profondeurs plus importantes.
Au niveau des courbes de densité : - Toutes les courbes ont un pic marqué vers 0-20 km. - Les asymétries sont plutôt possitives
Il n’est possible de réaliser une ANOVA car les conditions
d’applications ne sont pas respectés. Les résidus ne sont pas
normalement distribués et certaines des valeurs atteignent presque la
distance de Cook.
## Warning: les observations ayant un 'leverage = 0' ne sont pas représentées sur le graphique :
## 38
Il est tout de même possible de réaliser le test
Kruskall-walis.
Le test de kruskal-wallis est signifcatif avec une p-valeur de 0.0454364. Il faut préciser qu’il est sensible au différence de distributions donc si celles-ci sont fortement différentes comme c’est le cas ici il est possible qu’il n’y est pas uniquement une différence au niveau des médianes.
Dans cette partie de cette étude, c’est le lien entre les variables qualitatives qui va être étudié.
Il est interessant d’analyser si il y a un lien entre le VEI et les volcans. Pour cela, on va réaliser un graphique de répartition du VEI en fonction des volcans. Il est possible d’observer que la majorité des éruptions ont un VEI compris entre 1 et 3. Nisyros est celui qui présente le VEI le plus haut.
Un autre point important qu’il faut soulever c’est que la plupart des
volcans ont un VEI faible, entre 1 et 2 en majorité.
Un test peut être réalisé afin de savoir si il y a un lien entre le VEI
et les différents types de volcans. Il s’agit d’un test de
Chi2. Pour pouvoir faire cela, il faut d’abord réaliser un
tableau de contingence.
## Warning in chisq.test(tabVEI): L’approximation du Chi-2 est peut-être
## incorrecte
Il s’agit d’un khi-deux pour tester l’indépendance entre deux variables qualitatives. Les hépytohèses : H0 : il n’y a pas de relation entre le VEI et les différents volcans. H1 : il y a une relation entre le VEI et les différents volcans.
Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05 (0.1377903) . Cela veut dire qu’il n’y a pas de relation significatif entre le VEI et les volcans.
Il est ininteressant d’analyser si il y a un lien entre le type de magma et les volcans.
Il y a une dominance des magmas balsatiques (MB), surtout au niveau de Lipari.
Présence importante de magma latitique en majorité au niveau de Santorin.
Le magma andésitique est observé au niveau de plusieurs volcans.
Le test de chi2 est également réalisé pour cette relation.
## Warning in chisq.test(tab): L’approximation du Chi-2 est peut-être incorrecte
Dans ce cas-ci, le test du chi 2 est significatif car p-valeur > 0.05 (0.0045587) . Cependant, cette valeur est tout de même proche 0.05 donc cette relation doit être prise avec précaution.
Une ACF est une analyse factorielle des correspondances. Cela permet d’analyser la relation entre deux variables qualitatives. Il est ainsi important qu’il est la présence d’une relation entre les deux. C’est pour cela que l’AFC est réalisé à partir des variables Volcanoes et Mag.Type.
Le but de l’AFC est de réduire la dimensionnalité des données tout en gardant l’écart d’indépendance entre les variables.
Afin de pouvoir savoir le nombres d’axes qu’il faut retenir, un scree plot est réalisé. Celui-ci permet d’observer que ce sont bien les deux premiers axes qui contiennent toute l’information (~99%).
Il est également intéressant de regarder quelles variables contribuents le plus à quels axes. Pour la première dimension :
Les volcans qui contribuent le plus sont Nisyros, Santorin et Lipari
Les types de magmas qui contribuent le plus sont MA et MB
Pour la deuxième dimension
Les volcans qui contribuent le plus sont Nisyros et Santorin
Les types de magmas qui contribuent le plus sont MB-MA et ML
Le biplot permet de visualiser les relations entre les modalités des
deux variables. Il montre :
les variables situées à droite sont principalement bien représentées.
Ma et Vesuvio, elles ont une qualité de représentation plus faible. Ce qui correspond bien avec les graphiques précédent qui montraient que Ma et le Vesuve n’était pas dans les variables les plus représentées dans les deux premières dimensions.
une discrimination forte entre les volcans italiens et les volcans égéens principalement expliquée par Dim1
une discrimination entre Nisyros et Santorin principalement expliquée par Dim 2
les volcans italiens présentent des caractéristiques communes, peu de dispersion
les volcans grecs présentent une variabilité géochimique plus importantes.
Le type MA est majoritaire dans la classification des volcans explosifs
Le type MB est majoritaire dans la classification des volcans effusifs
ML apparait uniquement dans la classification des volcans explosifs
MB-MA et MR ne sont pas fortement représentés
## Warning in chisq.test(tabmg): L’approximation du Chi-2 est peut-être incorrecte
Le test chi2 est également réalisé pour savoir s’il y a une relation entre les deux variables qualitatives. Comme pour la relation précédente, la p-valeur <0.05 (8.1561704^{-6}). Ce qui veut dire qu’il y a bien une relation entre les deux variables.
L’AFC est réalisée à partir des variables Classification et Mag.Type. Un scree plot est réalisé afin de savoir quelle composante principale prend en charge le plus de variabilité. Les deux premières composantes prennent 100% de la variabilité.
Pour la première dimension :
Pour la deuxième dimension :
Les classifications qui contribuent le plus sont Strombolien/Vulcanien et Hawaiien/Strombolien
Les types de magmas qui contribuent le plus sont MB-MA, ML, MR
Le biplot permet de visualiser les relations entre les modalités des
deux variables.I Il montre :
l’ensemble des variables sont bien représentées sauf Vulcanien/Plinien qui a un cos 2 inférieur à 0.9975.
Séparation nette entre la classification des volcans plus et moins exploisifs (Dim 1)
MA est associée aux volcans plus explosifs (Vulcanien)
Séparation au niveau des types Strombolien/Vulcanien et Hawaien/Strombolien (Dim 2)
MB-MA, ML, MR et MBa sont associés aux volcans moins explosifs (Hawaien/Strombolien)
Précédement, ce sont les analyses avec une pour deux variables qui était étudié. Il est pourtant également d’étudier les relations entre plus de trois variables différentes.
Le graphique montre la répartition des types de magmas en fonction du volcans, des laves ainsi que la classification. Ce graphique permet d’observer :
Ma est le type de magma le plus fréquent que nivau de la classification Vulcanien au niveau des différents volcans
Nysiros est le seul volcan qui présente un comportement de type Vulcanien/Plinien
les types d’éruption les plus fréquent sont Hawaien/Strombolien et Vulcanien.
ML (magma latitique) n’apparait que dans la classificition Hawaien/Strombalien et au niveau de Santorin et un peu Nisyros.
L’ACM est une analyse en composantes multiples. Celle-ci permet d’analyser les relations entre plusieurs variables qualitatives. Ici, l’ACM est réalisée à partir des variables Classification, Mag.Type, Volcanoes.
Le sreeplot permet d’observer qu’il faut 10 composantes principales pour expliquer 100% de la variance.
Un biplot peut également être réaliser pour l’ACM. Avant toute chose, il est interessant de regarder que l’échelle au niveau du cos2 n’est pas du tout la même que précédement. Les valeurs ici sont beaucoup plus faible.
Il est possible de regarder la relation entre la profondeur et la magnitude en fonction des volcans. Cepedant, étant donnée que la relation entre la prodondeur et la magnitude ne donnaient déjà pas de relation, le rajout des volcans ne montrent aucun apport.
## ACP
L’ACP est une analyse en composantes principales. Celle-ci permet d’analyser les relations entre plusieurs variables quantitatives. Ici, l’ACP est réalisée à partir des variables Depth, Magnitude et Volume.
Une matrice de corrélation est réalisée afin d’observer les relations entre les différentes variables quantitatives. Il est possible d’observer comme précédement qu’une forte corrélation positive exciste entre la magntiude et le volume car celui-ci est calculé à partir de la magnitude. En ce qui concerne le lien entre la profondeur et la magnitude, la corrélation est moins importante mais tout de même précente.
Il y a trois variables, il y a ainsi trois composantes principales. Le scree plot permet d’observer que les deux premières composantes gardent 89,6% de la variabilité totale.
Le graphique de contribution permet d’observer quelles variables
contribuent le plus à chaque axe : - Les variables Magntiude et Volume
contribuent fortement à la première dimension - La profondeur contribue
plus à la deuxième.
Au niveau du cercle de corrélation, il est possible de voir que la magnitude et le volume contribuent à la dimension 1 tandis que la profondeur contribue plus à la dimension 2.
Les flèches sont proches du bord du cercle, ce qui veut dire que ces variables sont bien représentées dans ce plan.
La magnitude et le volume sont positivement corrélés. A l’inverse la
profondeur et le volume sont orthogonaux donc il n’y a aucune
corrélation entre ces deux variables.
A partir de ce grapique, il est possible de voir que :
La profondeur pointe vers le haut-gauche. Les échantillons situés dans la même direction sont caractérisés par des profondeurs plus importantes.
La magnitude et le volume pointent ver la droite. Les échantillons situés dans la même direction voient leur magnitude et leur volume plus impportant.
la plupart des volcans sont située autour du centre ou du côté positif de Dim1 .Ce qui veut dire qu’ils présentent des caractéristiques relativement proches.
certaines valeurs sont plus éloignées, comme pour le volcan Nisyros et Lipari. Ce qui est en accord avec ce qu’il a été vu précédement. Ces deux volcans avec des valeurs d’origine de profondeur du magma beaucoup plus élevé que la moyenne globale. De plus au niveau du volume, il y a également Santorin qui se détache ce qui est également en adéquation avec les analyses précédente.
En majorité, les volcans sont quand même en moyenne auu centre du graphique et proche les uns des autres. Il est important de préciser que cette étude ne comporte pas suffisament de données. Avec plus de données, les tendances déjà observée ici pourrait être encore plus dessinée. Comme le fait que plus le volume augmente, plus la magnitude augmente. Ainsi que le fait que la profondeur n’est pas vraiment lié au deux autres variables. Toute ces observations avaient déjà été réalisée à partir des analyses précédente.
La régression logistique multinomiale est une extension de la régression logistique binaire qui permet de modéliser des variables dépendantes catégorielles avec plus de deux catégories. Ici, deux modèles sont réalisés : un avec comme variable dépendante le type de magma et un autre avec comme variable dépendante le volcan.
L’AIC (Akaike Information Criterion) est une mesure qui permet de déterminer quel modèle statistique explique le plus le modèle. Il faut que l’AIC soit la plus faible possible. Le plus grand point fort de l’AIC, c’est qu’elle pénalise les modèles qui sont trop complexes et qui donc ne peuvent pas s’appliquer sur des données invisibles.
Dans cette étude, c’est le deuxième qui est le meilleur car il a l’AIC la plus faible. Cela voudrait dire que la magnitude et le volume sont des bons prédicteurs pour le type de magma.
Cependant le problème est le suivant, les écarts types sont beaucoup trop petits. Le modèle va donc sur estimé les coefficients des classes qui ne sont pas du tout supperposée. Même si il y a un petit chevauchement, les classes extrêmes sont parfaitement séparés, c’est un cas de sépration quasi-complètes. De plus, un autre facteur qui joue sur ces écart-types est le nombre d’échantillon. Le nombre de volcans dans cette étude n’est pas suffisant pour réaliser un modèle cohérent.
Le clustering est une technique d’apprentissage non supervisée qui permet de regrouper des observations similaires en clusters ou groupes. Ici, le clustering K-means est utilisé pour regrouper les volcans en fonction de leurs caractéristiques quantitatives : profondeur, magnitude et volume.
## Group.1 Volume Depth Magnitude
## 1 1 87398658 170.56600 3.980000
## 2 2 45686132 10.54557 2.614286